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摘 要 随 着 研究 问题 的 深入 和 数据 收集 手段 的 进步 ,能够 合理 分 析 和 深入 挖 握 谋 套 结构 数据 信息 的 混合 效 
应 均值 -方差 模型 (Mixed-Effects Location-Scale Models, MELSMD 受 到 广泛 关注 。 本 研究 拟 通 过 模拟 研究 和 应 
用 研究 ， 在 贝 叶 斯 框架 下 探 完 MELSM 的 模型 建构 方法 ， 并 探索 MELSM 在 确定 和 不 确定 情境 下 结合 检验 力 和 
效应 量 准确 性 分 析 的 样本 量规 划 范 式 ， 最 终 整 合 上 述 功 能 开发 简便 易 用 的 软件 包 , 形成 MELSM 的 应 用 流程 ， 
促进 新 方法 和 新 技术 在 心理 学 研究 中 的 推广 应 用 , 提高 研究 的 生态 效 度 和 可 重复 性 , 进而 提高 研究 的 整体 质量 。 
关键 词 。 广 套 数据 ,混合 效应 均值 -方差 模型 ， 模 型 建构 ， 样 本 量规 划 
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1 研究 背景 


在 心理 学 与 教育 学 研究 中 ,数据 常常 以 层级 
嵌 套 的 结构 呈现 。 例 如 ,重复 测量 设计 中 试 次 艇 
套 于 被 试 , 追踪 研究 中 测量 时 间 点 艇 套 于 个 体 ， 
教育 学 研究 中 学 生 肯 套 于 班级 等 ， 这 些 多 层级 结 
构 的 数据 就 是 瞬 套 数据 (Nested Data) o E E KEX) 
传统 的 数据 分 析 方 法 带 来 了 挑战 。 首 先 ， 骨 套数 
据 由 于 同一 组 内 的 各 观测 值 间 不 独立 ,存在 残 差 
非 独 立 性 问题 , 违背 了 上 检验、 方差 分 析 、 回 归 分 
析 等 传统 统计 方法 的 假设 , 造成 结果 偏差 。 其 次 ， 
为 满足 实验 控制 、 因 果 推 断 等 要 求 ， 研 究 者 需要 
在 不 同 水 平 (如 试 次 水 平 .被 试 水 平等 ) 加 入 控制 变 
量 或 预测 变量 ,这 是 传统 统计 方法 难以 实现 的 。 
因此 ， 越 来 越 多 的 研究 者 建议 采用 线性 混合 效应 
模型 (Linear Mixed-Effects Models, Hox et al., 
2017) SE SLRS TE YP OT PATI, ARN FY 22 
方差 同 质 性 假设 (以 下 简称 “ 残 差 同 质 性 ”) 在 实际 
应 用 中 常常 被 违背 。 例 如 , Williams 等 人 (2021) 发 
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Bh, 在 探究 认 知 控制 的 冲突 任务 中 (如 ，Stroop 任 
务 、Flanker 任务 ), 被 试 反应 时 的 变异 存在 显著 的 
个 体 差异 。 忽 略 残 差异 质 性 不 仅 会 造成 参数 估计 
偏差 . 还 不 利于 研究 者 深入 挖掘 有 关心 理 特质 稳 
定性 的 信息 (Williams et al., 2021), E, mE 
据 的 分 析 方 法 不 仅 应 能 考察 特质 发 展 变化 的 趋势 
及 其 影响 因素 (个 体 间 ), 还 应 考察 特质 在 发 展 中 
的 稳定 性 及 其 影响 因素 (个 体内 ), 为 揭示 心理 现 
象 的 本 质 提供 丰富 证 据 。 这 不 仅 是 传统 统计 方法 
无 法 做 到 的 ， 也 对 线性 混合 效应 模型 带 来 了 新 的 
挑战 。 

为 避免 残 差 异 质 性 导致 的 有 
探讨 行为 特质 之 间 的 相互 影响 .个体 间 (内 ) 差 异 及 
其 影响 因素 , 研究 者 在 线性 混合 效应 模型 的 基础 
上 拓展 提出 了 一 系列 广义 的 模型 统称 为 混合 效 
应 均值 -方差 模型 (Mixed-Effects Location-Scale 
Models, MELSM)。MELSM 不 需要 残 差 同 质 性 假 
设 ， 可 以 解释 不 同 层级 特质 的 相互 作用 ， 考 察 特 
质变 异 稳定 性 的 影响 因素 ， 从 而 充分 考虑 垦 套 结 
构 带 来 的 影响 ， 得 到 更 丰富 的 研究 结果 (Williams 
et al., 2019; Williams et al., 2021)。 但 是 ， 研 究 者 在 
应 用 MELSM 时 仍 存在 一 些 困 难 。 一 方面 , 由 于 
MELSM 人 允许 研究 者 考虑 更 多 随机 效应 ， 忽略 必 
要 的 随机 效应 会 增 大 第 一 类 错误 率 (Barr et al., 
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2013), 纳入 不 必要 的 随机 效应 又 会 使 模型 过 于 复 
杂 ， 导 致 参数 估计 困难 ,并 降低 检验 力 (Judd et al., 
2017; Lee，2018)。 因 此 , 研究 者 该 如 何 决定 应 该 
纳入 哪些 随机 效应 从 而 建构 合适 的 模型 ? 另 一 方 
H, 现 有 的 样本 量规 划 程 序 ( 如 G*power, Faul et al., 
2007) 无 法 应 用 于 MELSM， 因 此 , 研究 者 应 当 如 
何 确定 适用 于 MELSM 的 样本 量 以 保证 研究 结果 
的 可 重复 性 和 研究 结论 的 可 推广 性 (Nosek et al., 
2022)? 综 上 , 解决 好 MELSM 的 模型 建构 和 样本 
量规 划 问 题 ， 是 促进 MELSM 在 心理 学 研究 中 推 
广 应 用 的 首要 任务 。 


2 国内 外 研究 现状 


2.1 混合 效应 均值 -方差 模型 的 产生 及 应 用 

为 解决 传统 线性 混合 效应 模型 残 差 方 差异 质 
性 的 问题 ， 研 究 者 提出 了 更 广义 的 MELSM。 该 模 
型 可 分 为 两 个 部 分 : 均值 模型 (Location Model， 
描述 位 置 的 模型 ， 根 据 其 含义 称 为 均值 模型 ) 和 尺 
度 模型 (Scale Model, 描述 尺度 的 模型 ， 根据 其 含 
义 称 为 方差 模型 )。 
均值 模型 即 为 线性 混合 效应 模型 的 均值 部 
分 ,以 测量 (水 平 LET PACE 2) 为 例 ， 其 一 
般 形 式 可 表示 为 (Williams et al., 2021): 
Y, = Xp + Zib; +e;, (1) 
HP, Y æn xl AIE, 表示 水 平 2 中 个 体 i 
的 结果 变量 ,其 中 表示 个 体 i 水 平 1 的 测量 次 数 ， 
X; Æ nxp 的 矩阵, 第 一 列 是 1, 表示 个 体 i 的 截 
EB, 第 2-p 列 是 p- 个 预测 变量 ，8 是 p x1 的 列 
HE, RREA p—1 个 预测 变量 的 固定 效应 。 
乙 是 六 xd 的 和 矩阵， 第 一 列 是 1， 表示 个 体 i 的 截 
PR, 第 2-4 列 是 g-1 个 具有 随机 效应 的 水 平 1 预 
测 变 量 ，b; 是 gx1 的 列 向 量 ， 表 示 截 距 和 q- 个 
预测 变量 的 随机 效应 。 残 差 e 是 n, xl 的 列 向 量 ， 
e; ~ N, (0, Ri),Ri 是 nxn; WET. R; =ac1n ， 
HP I, 是 nxn 的 单位 矩阵 。 线 性 混合 效应 模型 
通常 假设 R 满 足 同 质 性 假设 ， 即 残 差 在 给 定 随机 
效应 的 情况 下 条 件 独立 。 然 而 , 很 多 研究 发 现 这 
一 假设 在 实际 中 常 无 法 满足 (Hedeker et al., 
2008)。 因 此 ， MELSM 放宽 了 残 差 同 质 性 的 限制 ， 
在 方差 模型 中 允许 水 平 1 残 差 方 差异 质 。 

方差 模型 的 定义 如 下 

o =exp(W,t + Ait,), (2) 

其 中 , 个 体 i 的 残 差 方 差 cz 是 nxl 的 列 向 量 ， 


W. Fen, xs FEM, 第 一 列 是 1, 表示 个 体 i 的 截 距 ， 
第 2-s 列 是 s1 个 预测 变量 ，z 是 s x1 的 列 向 量 ， 
表示 截 距 和 s-1 个 预测 变量 的 固定 效应 。 4 是 
nixa 的 和 矩阵， 第 一 列 是 1， 表示 个 体 i 的 截 距 , 第 
2-a 列 是 a-1 个 具有 随机 效应 的 水 平 1 预测 变量 。 
te axl AVF ia) at, SN EB A ao-1 个 预测 变量 
的 随机 效应 。 方 差 模型 能 够 有 效 避 免 残 差 异 质 性 
对 参数 估计 造成 的 偏差 , 并 且 解 释 异 质 的 原因 。 
例如 ,将 这 种 模型 应 用 于 试 次 内 套 于 被 试 的 实验 
研究 ， 可 以 探索 个 体内 反应 变异 性 更 大 (或 更 小 ) 
的 原因 。 又 例如 ， 可 在 此 基础 上 对 均值 模型 水 平 2 
随机 部 分 的 方差 也 加 入 预测 变量 ， 探 索 水 平 2( 个 
体 间 ) 差 异 的 影响 因素 (Blozis et al., 2020)。 将 这 种 
模型 应 用 于 学 生肉 套 于 学 校 的 发 展 与 教育 研究 中 ， 
可 以 同时 探索 影响 学 校内 、 学 校 间 成 绩 变异 的 因 
素 ， 帮 助 改 进 教学 实现 教育 公平 (Williams et al., 
2022)。 
在 MELSM 的 整体 框架 下 , 研究 者 还 可 以 计 
算 均 值 模型 和 方差 模型 随机 效应 的 相关 ， 进一步 
丰富 研究 结果 。 例 如 ,在 试 次 抱 套 于 被 试 的 实验 
研究 中 ,均值 模型 斜率 随机 部 分 与 方差 模型 截 距 
随机 部 分 的 相关 ,描述 了 实验 效应 更 强 的 被 试 ， 
倾向 于 有 更 一 致 (或 不 一 致 ) 的 反应 。 此 外 ,也 可 以 
对 随机 部 分 的 协 方差 加 入 预测 变量 进行 解释 。 
MELSM 具有 很 强 的 可 拓展 性 。 很 多 研究 者 
针对 不 同 的 研究 问题 ， 基 于 MELSM 拓展 出 丰富 
的 形式 。 例 如 ,在 均值 模型 和 方差 模型 中 加 入 非 
线性 部 分 ， 以 反映 不 同 个 体 的 学 习 轨 迹 变 化 并 探 
索 其 影响 因素 (Williams et al., 2019)。 此 外 , 目前 
还 拓展 出 适用 于 结果 变量 为 顺序 变量 (Hedeker et al., 
2016)， 时 间 - 事 件 截 断 数据 变量 (Courvoisier et al., 
2019)， 半 连续 变量 (例如 有 较 多 0 的 数据 ，Blozis 
et al.，2020) 的 形式 ， 以 及 数据 整体 结构 为 动态 数 
据 (Rast & Ferrer，2018)， 交 义 分 类 数据 (Brunton- 
Smith et al., 2017), =7K-F HRA AHA (Lin et 
al., 2018) 的 形式 。 总 的 来 说 , MELSM 的 优势 在 于 
能 够 同时 考察 因 变量 发 展 变化 ， 及 其 变异 一 致 性 
程度 的 影响 因素 ,使 其 在 心理 学 实验 研究 、 追 踪 
研究 等 领域 的 应 用 越 来 越 广泛 。 
2.2 ”混合 效应 均值 -方差 模型 建构 的 研究 现状 
MELSM 的 均值 模型 和 方差 模型 都 可 能 包含 
随机 效应 ， 如 何 选择 合适 的 随机 效应 建构 模型 ， 
是 模型 应 用 面临 的 首要 问题 。 
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错误 定义 模型 可 能 会 导致 错误 的 推论 。 一 方 
面 , 忽略 必要 的 随机 效应 会 导致 有 偏差 的 结果 。 
Barr 等 人 (2013) 推 荐 在 没有 理论 假设 的 情况 下 ， 
使 用 包含 尽 可 能 多 随机 效应 的 模型 。Gonzhlez 等 
人 (2014) 支 持 了 他 们 的 观点 ， 发现 忽 略 必要 的 随 
机 效应 将 使 得 残 差 独立 性 假设 , 正 态 性 假设 和 方 
差 齐 性 假设 无 法 满足 ,最终 导致 标准 误 的 错误 估 
计 。 男 一 方面 , 定义 错误 的 随机 效应 也 会 带 来 严 
重 后 果 。Lee (2018) 认 为 应 当 正 确定 义 线性 混合 效 
应 模型 的 随机 部 分 。 如 果 将 固定 效应 定义 为 随机 
效应 ,会 增加 参数 估计 的 误差 .导致 估计 的 方差 
为 负 (Baird & Maxwell, 2016), 降低 模型 检验 力 
(Matuschek et al., 2017)。 如 果 随 机 部 分 太 多 , 会 导 
致 模型 不 易 收 敛 (Judd et al., 2012)。 因 此 ， 忽 略 存 
在 的 随机 效应 和 增加 不 必要 的 随机 效应 都 可 能 对 
参数 估计 带 来 不 利 影响 ， 应 当 通 过 模型 选择 确定 
合适 的 随机 效应 , 建构 正确 的 模型 (Brauer & Curtin, 
2018; Martinez-Huertas et al., 2021)。 

模型 建构 首先 应 考虑 研究 设计 对 随机 效应 的 
理论 假设 。 如 果 缺 乏 足 够 的 理论 依据 ， 则 考虑 通 
过 数据 驱动 的 方式 选择 合适 的 模型 。 目 前 , 已 有 
关于 MELSM 的 研究 几乎 都 是 直接 定义 模型 ， 即 
使 进行 了 模型 选择 ,也 仅 关心 方差 模型 是 否 存在 
残 差 异 质 性 (Williams et al., 2021), 或 者 模型 中 非 
线性 部 分 及 其 相应 的 随机 效应 是 否 成 立 (Williams et 
al., 2019), 并 没有 在 典型 .完整 MELSM 的 框架 下 
探讨 模型 选择 的 方法 。 

此 外 ,探讨 模型 选择 和 建构 的 方法 需要 结合 
适用 于 MELSM 的 参数 估计 方法 。 在 极 大 似 然 估 
计 框 架 下 ,可 采用 似 然 比 检验 (Likelihood Ratio 
Test, LRT), 基于 信息 准则 (例如 AIC, BIC) 等 方式 
实现 线性 混合 效应 模型 的 比较 和 选择 (Lee， 
2018)。 然 而 , MELSM 的 复杂 程度 较 高 ， 极 大 似 然 
估计 会 导致 参数 估计 不 易 收敛 ,已 有 关于 MELSM 
的 研究 大 多 都 应 用 贝 叶 斯 方法 实现 参数 估计 (如 
Rast & Ferrer, 2018; Williams et al., 2020)。 贝 叶 斯 
估计 可 以 灵活 实现 复杂 模型 的 参数 估计 。 在 贝 叶 
斯 估计 框架 下 , 很 多 常用 的 模型 选择 方法 已 不 再 
适用 ， 需 要 对 传统 的 拟 合 指标 进行 拓展 。 贝 叶 斯 
框架 下 的 拟 合 指标 可 分 为 两 类 。 一 类 是 直接 在 贝 
叶 斯 估计 框架 下 定义 的 拟 合 指标 。 例如, DIC 指标 
(Deviance Information Criterion, Spiegelhalter et al., 


2002) 利 用 了 参数 后 验 分 布 信息 计算 模型 与 数据 


的 拟 合 程度 ， 并 包含 了 惩罚 模型 复杂 度 的 因子 ; 
贝 叶 斯 因子 改进 了 频率 学 派 中 使 用 p 值 的 弊端 
反映 了 当前 数据 将 先 验 概率 更 新 为 后 验 概率 过 程 
中 的 变化 (Hoijtink et al., 2019); 后 验 预测 p 值 
(Posterior Predictive p-value, PPP, Gelman et al., 
1996) 反 映 了 在 所 有 马尔 科 夫 链 蒙特 卡 洛 (Markov 
Chain Monte Carlo, MCMC)iE(tF, 后 验 预 测 差 
异 统计 量 大 于 当前 数据 差异 统计 量 的 比例 。 另 一 
类 指标 是 将 评价 结构 方程 模型 拟 合 程度 的 近似 拟 
合 指 标 拓展 到 贝 叶 斯 框架 下 。 近 似 拟 合 指标 避免 
了 严格 检验 的 缺陷 ， 能够 容忍 很 小 程度 的 错误 。 
Asparouhov 和 Muthén (2021) 提 出 了 将 CFI, TLI, 
RMSEA 拓展 到 贝 叶 斯 框架 下 的 方法 ， 其 优势 在 
于 能 够 得 到 指标 的 可 信和 区间 (Credible Interval), 
进而 应 用 可 信和 区间 而 非 点 估计 值 进行 模型 比较 。 
目前 ， 尚 没有 研究 考察 不 同 贝 叶 斯 拟 合 指标 在 
MELSM 模型 选择 中 的 表现 。 本 研究 拟 比较 DIC, 
PPP, NHAT, CFI, TLI, RMSEA 对 MELSM 
模型 选择 的 结 

2.3 ”样本 量规 划 的 研究 现状 

小 样本 量 导 致 检验 力 不 足 的 情况 广泛 存在 于 
各 类 学 科 和 领域 的 实验 研究 中 (Brysbaert & Stevens, 
2018)。 低 检验 力 会 造成 基于 p 值 的 结果 可 重复 性 
低 ( 胡 传 鹏 等 , 2016)。 已 有 研究 大 多 针对 线性 混 
合 效 应 模型 开展 检验 力 分析 以 规划 样本 量 。 仅 有 
Walters 等 人 (2018) 关 注 了 MELSM 的 检验 力 。 但 
是 , 他 们 在 均值 模型 没有 预测 变量 的 情况 下 只 关 
注 了 方差 模型 识别 残 差异 质 性 或 预测 变量 的 检验 
Fi, 方差 模型 的 预测 变量 也 没有 随机 斜率 ,并 没 
有 在 完整 MELSM 的 框架 下 考察 模型 固定 效应 的 
检验 力 以 实现 样本 量规 划 。 

与 此 同时 , 美国 统计 协会 强调 应 避免 仅 报 告 
显著 性 ， 而 加 入 对 参数 估计 准确 性 (Accuracy in 
Parameter Estimation, AIPE, EEH M EAX, 
以 下 简称 “效应 量 准确 性 ”，Halsey et al., 2015; 
Maxwell, 2004) M4 8X (Wasserstein & Lazar, 2016; 
温 忠 肛 等 , 2016)。 综 上 , 样本 量规 划 应 不 仅 应 满 
足 检 验 力 的 要 求 ,还 应 基于 效应 量 准确 性 分 析 展 
开 。 效 应 量 准 确 性 分 析 的 核心 是 控制 效应 量 置信 
区 间 宽 度 ， 越 窄 表明 其 估计 越 准 确 。 然 而 ， 目 前 尚 
没有 研究 针对 MELSM 同时 结合 检验 力 分 析 和 效 
应 量 准确 性 分 析 结 果 规 划 样 本 量 。 

在 以 上 传统 样本 量规 划 研 究 中 , 往往 面临 来 
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自 三 个 方面 的 不 确定 性 问题 (Pek & Park, 2019, 
2022)。(1) 总 体 效应 量 的 不 确定 性 。 例 如 ,在 实际 
中 为 了 实现 基于 回归 模型 的 样本 量规 划 , 研究 者 
往往 使 用 预 研究 或 者 前 人 研究 得 到 的 回归 系数 点 
估计 值 , 来 代替 回归 系数 的 真 值 (总 体 效 应 量 )。 然 
而 ， 基 于 不 同 的 样本 (研究 ) 会 得 到 不 同 的 回归 系 
数 ， 造 成 总 体 效应 量 的 不 确定 性 。(2) 样 本 变异 造 


型 的 随机 效应 ， 备 选 模型 的 增加 为 模型 选择 带 来 
了 更 大 困难 (Williams et al., 2019), 在 实际 研究 中 
研究 者 往往 需要 通过 模型 选择 来 确定 各 随机 效应 
的 取舍, 那么 , 对 于 完整 MELSM， 研 究 者 应 该 按 
照 何 种 顺序 进行 模型 建构 ? 另 一 方面 以往 的 研 
究 者 大 多 基于 极 大 似 然 估计 框架 下 的 拟 合 指标 
探讨 线性 混合 效应 模型 的 建构 ， 然 而 复杂 随机 效 


成 的 不 确定 性 。 即 不 同 研究 中 具体 使 用 的 样本 是 
存在 差异 的 ， 而 样本 量规 划 没 有 考虑 具体 样本 的 
特征 ， 仅 能 够 给 出 一 般 的 样本 量 建议 。(3) 模 型 选 
择 造成 的 不 确定 性 。 当 存在 多 个 备 选 模型 时 (如 
MELSM 的 建构 过 程 ), 为 了 实现 样本 量规 划 ， 研 
究 者 往往 预 设 选择 的 即 为 正确 模型 。 然 而 ,数据 
分 析 时 选择 的 模型 可 能 并 不 能 正确 代表 实际 的 数 
据 结构 ， 带 来 了 模型 选择 造成 的 不 确定 性 。 

常用 的 基于 蒙特 卡 洛 模拟 进行 检验 力 分 析 的 
范式 仅 能 够 通过 重复 抽样 的 方式 处 理 样本 变异 造 
成 的 不 确定 性 ,忽略 了 总 体 效 应 量 的 不 确定 性 和 
模型 选择 造成 的 不 确定 性 , 会 导致 不 准确 的 结 
Ro 例如 , Liu 和 Wang (2019) 证 明 , 在 未 考虑 不 确 
定性 的 情况 下 进行 样本 量规 划 进 而 开展 的 研究 会 
面临 检验 力 不 足 的 后 果 。 因 此 , 在 检验 力 和 效应 
量 准确 性 分 析 中 考虑 不 确定 性 问题 ,可 以 更 好 地 
代表 实践 中 研究 设计 面临 的 现实 困境 ， 也 能 保证 
样本 量规 划 结 果 更 加 准确 可 靠 ， 这 使 得 越 来 越 多 
的 方法 研究 者 关注 了 不 确定 情况 下 的 样本 量规 划 
问题 (如 Anderson et al., 2017; Liu & Wang, 2019). 
Pek 和 Park (2019, 2022) 提 出 了 贝 叶 斯 经 典 混合 
法 (Bayesian-classical Hybrid Approach) 并 开发 了 
相应 软件 包 ， 为 解决 不 确定 性 问题 提供 了 可 行路 
径 。 BÆ, 其 研究 没有 针对 MELSM， 只 考虑 了 检 
验 力 分 析 而 未 考察 效应 量 准确 性 分 析 ,， 并 且 在 解 
决 模型 选择 造成 的 不 确定 性 时 , 采用 的 模型 平均 
的 方式 在 实际 应 用 中 不 如 模型 选择 广泛 (如 Barr 
et al., 2013; Lee, 2018)。 


3 问题 提出 


结合 MELSM 的 理论 和 实证 研究 现状 可 知 ， 
目前 有 关 MELSM 的 模型 建构 和 样本 量规 划 问 题 


应 模型 导致 的 不 收敛 的 问题 促使 研究 者 考虑 更 合 
适 的 参数 估计 方法 。 在 更 适用 于 MELSM 的 贝 叶 
斯 估计 框架 下 ,各 拟 合 指标 表现 如 何 ? 对 上 述 问 
题 的 研究 将 有 效 解 决 MELSM 应 用 中 的 模型 建构 
问题 。 

其 次 , 已 有 研究 在 样本 量规 划 方 面 存 在 许多 
不 足 。 第 一 , 已 有 研究 针对 MELSM 开展 检验 力 
分 析 时 仅 基于 简单 模型 考察 方差 模型 中 识别 残 差 
异 质 性 或 方差 模型 中 预测 变量 的 检验 力 ， 导 致 研 
究 结 果 难 以 推广 到 完整 MELSM 框架 中 ， 且 无 法 
同时 考察 均值 模型 和 方差 模型 的 固定 效应 的 检验 
力 。 第 二 ,以 往 的 样本 量规 划 主 要 都 基于 检验 力 
分 析 展 开 ， 鲜 有 研究 提出 同时 考虑 检验 力 和 效应 
量 准 确 性 分 析 实 现 样本 量规 划 的 范式 ， 更 没有 研 
究 探索 在 不 确定 性 情境 下 ,结合 以 上 二 者 科学 规 
划 样 本 量 的 范式 ,导致 实际 中 人 研究 的 可 重复 性 低 ， 
检验 力 和 效应 量 准确 性 达 不 到 预期 水 平 。 此 外 ， 
Pek 和 Park (2019, 2022) 提 出 的 贝 叶 斯 经 典 混 合 
法 采用 模型 平均 的 方法 不 如 模型 选择 应 用 广泛 
由 此 得 到 的 样本 量 建议 实用 性 不 强 。 因 此 ,在 检 
验 力 分 析 的 基础 上 ， 如 何 基 于 效应 量 准确 性 分 析 
开展 MELSM 的 样本 量规 划 ? 进一步 , 在 考虑 不 
确定 性 问题 的 情况 下 ， 如 何 开 展 基 于 MELSM 的 
样本 量规 划 ? 如 何 借助 更 常用 的 模型 选择 方式 ， 
解决 模型 选择 造成 的 不 确定 问题 ? 上 述 问 题 的 研 
究 有 助 于 完善 样本 量规 划 的 理论 人 研究， 帮助 研究 
者 得 到 更 可 靠 的 样本 量 建议 。 

最 后 ， 以 往 开发 的 应 用 于 混合 效应 模型 的 软 
件 包 功能 单一 ， 只 能 实现 模型 参数 估计 及 建构 、 
检验 力 分 析 、 效 应 量 准确 性 分 析 中 的 某 一 项 功能 ， 
尚 没有 软件 包 能 灵活 实现 MELSM 的 参数 估计 及 
模型 选择 ， 在 未 考虑 和 考虑 了 不 确定 性 问题 的 情 


仍 未 能 得 到 充分 解决 。 具 体 体 现在 以 下 几 个 方面 : 

首先 ， 已 有 研究 大 多 是 直接 定义 模型 ， 没 有 
在 完整 的 MELSM 框架 下 讨论 模型 建构 方法 。 与 
线性 混合 效应 模型 相 比 , MELSM 可 以 加 入 方差 模 


境 下 同时 进行 检验 力 和 效应 量 准 确 性 分 析 以 规划 
样本 量 等 系列 功能 。 为 促进 MELSM 的 广泛 应 用 ， 
研究 者 需要 功能 完善 、 使 用 便利 的 应 用 程序 , 用 
于 实现 样本 量规 划 和 模型 建构 等 功能 。 
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4 研究 构想 增加 方差 模型 预测 变量 的 固定 斜率 , 模型 6 在 模 


型 5 的 基础 上 增加 方差 模型 预测 变量 的 随机 斜 


本 研究 基于 MELSM 的 应 用 需要 ,围绕 
da E R PALL, BURL 1~3 均 假设 残 差 同 质 性 假设 成 立 ， 


MELSM 的 模型 选择 与 建构 、 样 本 量规 划 方 法 展 


开 系统 研究 。 整 体 上 采用 理论 研究 和 应 用 研究 相 “模型 4-6 则 假设 残 差 同 质 性 假设 不 同 程度 的 被 
结合 的 方法 ,具体 研究 流程 如 图 1 所 示 。 违背 。 | 
研究 1、 研 究 2 和 研究 3 主要 采用 理论 推导 研究 4 基于 心理 学 实验 研究 和 调查 研究 等 实 


和 模拟 研究 的 方式 。 参 考 Williams 等 人 (2021) 的 证 研究 探索 样本 量规 划 和 模型 建构 方法 的 应 用 。 
研究 ， 模 拟 研究 考察 均值 模型 和 方差 模型 最 多 各 该 研究 分 别 开 展 了 基于 Stroop 研究 范式 的 心理 学 
包含 1 个 自 变量 且 为 相同 自 变量 的 情况 (开发 的 实验 研究 ， 以 及 探索 数学 学 习 自 我 效能 感 和 教师 
软件 包 将 容纳 更 多 常用 的 模型 )。 按照 模型 的 复杂 ” 认 知 激发 教学 策略 使 用 程度 对 数学 成 绩 影响 的 教 
程度 ， 主 要 考虑 6 种 嵌 套 模型 。 表 1 展示 了 各 模 。 ” 育 心 理学 调查 研究 。 

型 的 主要 特征 和 模型 间 的 伦 套 关系 ,为 简化 研究 ， 本 研究 采用 的 统计 软件 主要 包括 用 于 贝 叶 斯 
暂 不 考虑 均值 模型 和 方差 模型 随机 效应 的 相关 估计 的 R 软件 包 brms(Biirkner, 2017)， 以 及 自行 
(Arend & Schafer, 2019)。 其 中 , 模型 1 不 包含 随 开发 的 软件 包 。 各 研究 的 具体 方案 如 下 。 

机 效应 ， 模 型 2 在 模型 1 的 基础 上 增加 均值 模型 41 研究 1: 混合 效应 均值 -方差 模型 的 选择 与 建 


的 随机 截 距 ， 模 型 3 在 模型 2 的 基础 上 增加 均值 构 研 究 
模型 的 随机 斜率, 模型 4 在 模型 3 的 基础 上 增加 研究 1 将 基于 适用 于 复杂 模型 参数 估计 的 贝 


方差 模型 的 随机 截 距 ,， 模型 5 在 模型 4 的 基础 上 叶 斯 方法 及 相应 的 拟 合 指标 ,探索 实现 MELSM 


理论 研究 方法 拓展 应 用 研究 
研究 1: MELSM 的 选择 与 建构 | 研究 3: 基于 不 确定 性 问题 的 研究 4: MELSM 的 应 用 | 
| | 研究 1-1 ee oo [o | 
| | 均值 模 型 | 方法 流程 的 理论 研究 | io! | 案例 1: 基于 Stroop |; 
， | 的 选择 和 :| 研究 范式 的 心理 学 | 
Dia ;| 实验 研究 : 
bot 1 CRUE BAR) 
;总 样本 变异 || 模型 选择 | 
1 ; ' 研究 4-2 
1| DIC, PPP, 贝 叶 基 因子 || CFL TLLRMSEA 1 案例 2， 探索 数学 学 
Wo Ld aa 习 自 我 效能 感 和 教 | 
ee e 师 认 知 激发 教学 策 | 
: 研究;: MELSM 的 检验 力 与 效应 量 ， “ | 
! “准确 性 研究 l i! 成 绩 影响 的 教育 心 |， 
: ; 提供; | 布 中 抽取 理学 调查 研究 (学 生 || 
TA ;样本 ii | 效应 量 RETH 
| 研究 2-1 研究 2-2 ,量规 1 ee 
| 符合 残 差 同 质 完整 MELSM 的 | UE | | n! 
‘| 性 的 MELSM 的 检验 力 与 效应 量 |i 式 | ' | 样本 量规 划 | 
| 检验 力 与 效应 量 | | 准确 性 研究 | 党 Loo — yp i 
1) 准确 性 研究 |) 研究 3-1 研究 2 | |! ae i 
O 不 确定 情况 下 | | 不 确定 情 |) | ;| eaae | 
i i 样本 量规 划 依据 | ! “站 符合 残 差 同 质 况 下 完整 | 中， | 
1 |i) 性 的 MELSM MELSM | ,| y $ 
i + eae 1) 的 样本 量规 划 的 样本 量 | ， | L! 
| RAA | Bee i | gg 规则 研究 o | 分 析 结果 并 解释 |;， 
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图 1 研究 流程 示意 图 
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Ki ”模拟 研究 中 主要 考虑 的 6 种 模型 主要 特征 
均值 模型 方差 模型 
模型 固定 效应 随机 效应 固定 效应 随机 效应 
截 距 斜率 BE 斜率 RIE 斜率 RE 斜率 
均值 模型 的 选择 与 建构 
模型 1 v v V 
模型 2 v v V V 
模型 3 v V Vv V Vv 
方差 模型 的 选择 与 建构 
模型 4 v vV V V V V 
模型 5 v Vv Vv v V Vv Vv 
模型 6 v V v Vv V V V V 


模型 建构 的 基本 途径 。 主 要 思路 是 基于 包含 不 同 
随机 效应 的 真实 模型 (模型 1~6) 产 生 数 据 ， 然 后 使 
用 贝 叶 斯 框架 下 的 拟 合 指标 比较 各 备 选 模型 ， 确 
定数 据 支持 的 模型 。 最 后 , 评价 所 有 重复 模拟 中 
选 出 的 模型 与 真实 模型 的 一 致 性 程度 ， 总 结 各 拟 
合 指 标的 优 缺 点 和 适用 范围 ， 从 而 选 出 稳健 性 较 
好 的 拟 合 指标 用 于 研究 3。 由 于 在 实际 中 同时 考 
虑 均值 模型 和 方差 模型 会 涉及 较 多 的 备 选 模 型 ， 
因此 ， 为 简化 流程 ,本 研究 拟 采用 先 选择 确定 最 


的 变化 参考 了 同类 样本 量规 划 研 究 ( 如 
Schultzberg & Muthén, 2018)。 均 值 模型 自 变 量 的 
效应 量 参考 了 Cohen W d 值 小 中、 大 水 平 (Barr 
et al., 2013; Lee, 2018)。 均值 模型 随机 斜率 的 方差 
参考 了 Arend 和 Schafer (2019) 研 究 中 设置 的 水 
平 。 对 于 模拟 设计 的 每 种 组 合 ， 参考 大 多 数 检 验 
力 分 析 的 研究 ， 基 于 各 产生 数据 的 模型 ， 重 复生 
成 数据 1000 次 (如 Thoemmes et al., 2010; Zhang, 
2014)。 情 境 1 基于 模型 1~3 产生 数据 , 情境 2 基 


合适 的 均值 模型 ， 再 选择 确定 最 合适 的 方差 模型 


的 思路 ， 并 考察 这 种 思路 的 可 行 性 。 研 究 1 分 为 
两 个 子 研究 : 


研究 1-1 包括 两 个 情境 , 分 别 考察 数据 符合 
和 不 符合 残 差 同 质 性 假设 时 , 均值 模型 的 比较 和 
选择 结果 ,模拟 条 件 包括 水 平 1 样本 量 (10, 30, 70, 
100, 300), 水 平 2 样本 量 (20, 50, 300, 800), 均值 
模型 自 变 量 的 效应 量 (0.2，0.5，0.8) 和 均值 模型 随 


于 方差 模型 为 模型 4 的 方差 模型 ,均值 模型 分 别 
为 模型 1~3 的 均值 模型 这 3 个 模型 产生 数据 。 
两 个 情境 中 拟 合 的 备 选 模 型 均 为 模型 1~3。 应 用 
贝 叶 斯 估计 方法 佑 计 参 数 。 结 合 敏感 性 分 析 结 果 
确定 合适 的 参数 先 验 分 布设 置 。 参 考 前 人 类 似 研 
究 (Depaoli & Clifton, 2015; van Erp & Browne, 
2021)， 拟 对 于 方差 比较 两 种 先 验 分 布 : 无 信息 先 


机 斜率 的 方差 (0.01，0.09，0.25)， 共 形成 Sx4x3x3 


(Gi Gamma 分 布 ), 稳健 分 布 先 验 (混合 逆 
Gamma 分 布 )。 回归 系数 部 分 拟 参考 类 似 研究 , K 


= 180 种 模拟 实验 条 件 水 平 的 组 合 ( 即 处 理 )。 水 平 
1 样本 量 中 , n = 10 的 水 平 代 表 了 Lee (2018) 的 研 
究 中 使 用 Laplace 接近 方法 没有 收敛 问题 的 条 件 ， 
n = 300 的 水 平 代 表 了 Schultzberg 和 Muthén (2018) 
关于 动态 结构 方程 模型 样本 量规 划 研 究 中 测试 时 
间 点 设置 的 最 大 水 平 ; 水 平 2 样 本 量 中 , N=20 的 
水 平 接近 Lee (2018) 总 结 的 类 似 实验 设计 所 使 用 
的 被 试 量 最 小 值 (16), N = 800 的 水 平 接近 Lee 
(2018) 模 拟 研究 中 设置 的 1000 名 被 试 的 水 平 ， 目 
的 是 为 了 探索 大 样本 条 件 对 效应 量 估计 准确 性 和 
检验 力 提高 的 作用 。 最 小 到 最 大 样本 量 水 平 之 间 


— 


标准 正 态 分 布 (Depaoli & Clifton, 2015; van Erp 
& Browne,，2021)。 模 型 拟 合 后 ， 基 于 拟 合 指标 选 
择 最 佳 模型 ， 在 每 种 产生 模型 下 计算 各 指标 正确 
选择 模型 的 比例 ,， 选 出 稳健 性 较 好 的 拟 合 指标 。 
研究 比较 的 拟 合 指标 包括 DIC, PPP， 贝 叶 斯 因子 
CFI, TLI, RMSEA。 

研究 1-2 考察 在 均值 模型 已 经 正确 建构 的 情 
况 下 ， 当 残 差 同 质 性 假设 不 成 立时 ,方差 模型 的 
比较 和 选择 结果 。 模拟 条 件 与 研究 1-1 相同 ， 共 形 
成 180 种 模拟 实验 条 件 水 平 的 组 合 ( 即 处 理 )。 对 于 
模拟 设计 的 每 种 组 合 , 分 别 基于 模型 4~6, 重复 生 
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成 数据 1000 次 。 拟 合 的 备 选 模型 为 模型 3~6， 研 
究 比 较 的 拟 合 指标 和 分 析 流 程 均 与 研究 1-1 相同 。 
42 ”研究 2: 混 合 效应 均值 -方差 模型 的 检验 力 与 

效应 量 准确 性 研究 

研究 2 将 基于 检验 力 和 效应 量 准确 性 分 析 实 
现 样本 量规 划 , 使 得 样本 量 同时 满足 二 者 要 求 。 
主要 思路 是 采用 与 产生 模型 相同 的 拟 合 模型 ， 在 
不 同样 本 量 条 件 下 ， 基 于 蒙特 卡 洛 模拟 方式 计算 
检验 力 ， 并 运用 基于 后 验 分 布 的 方法 计算 效应 量 
的 95% 可 信 区 间 。 研 究 2 分 为 两 个 子 研究 ， 分别 
以 模型 3 (符合 残 差 同 质 性 的 MELSM， 即 线性 混 
合 效应 模型 ) 和 模型 6 (完整 MELSM) 为 产生 数据 
和 拟 合 数据 的 模型 ， 检 验 力 和 效应 量 准确 性 的 分 
析 对 象 分 别 为 均值 模型 中 预测 变量 的 固定 效应 ， 
以 及 均值 模型 和 方差 模型 中 预测 变量 的 固定 效 
应 。 

研究 2-1 考察 符合 残 差 同 质 性 的 MELSM 的 
检验 力 与 效应 量 准 确 性 。 模 拟 条 件 包括 水 平 1 样 


可 以 为 准确 解决 更 实际 、 更 广泛 科研 实践 中 的 研 
究 设计 问题 提供 参考 。 主 要 思路 是 基于 研究 1 选 
出 的 稳健 性 较 好 的 拟 合 指标 和 研究 2 得 到 的 基于 
检验 力 和 效应 量 准确 性 分 析 规 划 样 本 量 的 范式 ， 
拓展 提出 不 确定 性 情境 下 样本 量规 划 方法 。 然 后 ， 
基于 该 方法 ,探索 效应 量 不 确定 程度 不 同 的 条 件 
F, 符合 残 差 同 质 性 的 MELSM 和 完整 MELSM 
的 推荐 样本 量 。 

拓展 提出 的 方法 如 下 : 

(1) 定 义 效 应 量 参数 先 验 分 布 。 根 据 已 有 人 研究 
得 到 效应 量 可 能 的 取 值 范围 ， 再 根据 正 态 分 布 假 
设 下 ,可 能 的 取 值 范围 约 为 6 倍 标准 差 ， 推 算出 
效应 量 的 标准 差 。 由 此 ， 推 导出 效应 量 先 验 分 布 
的 正 态 分 布 参数 (也 可 以 探索 提出 其 他 的 先 验 分 布 )。 

(2) 抽 取 可 能 的 效应 量 。 从 (1) 中 定义 的 先 验 分 
布 里 抽取 5 个 效应 量 的 值 。 

(3) 生 成 样本 。 以 所 有 备 选 模型 中 最 复杂 的 模 
型 为 产生 模型 (Pek & Park, 2019), 以 每 个 抽取 的 


本 量 (10, 25, 50, 75, 100, 150, 200, 300), 水平 2 样 
本 量 (20, 30, 50, 75, 100, 150, 200, 300, 800) 和 均 
值 模型 自 变量 的 效应 量 (0.2，0.5，0.8)， 共 形成 
8x9x3 = 216 种 模拟 实验 条 件 水 平 的 组 合 ( 即 处 
理 )。 对 于 每 种 模拟 实验 条 件 水 平 的 组 合 ， 基于 模 
AY 3, 重复 生成 数据 10000 次 。 重 复 次 数 的 设置 参 
考 了 检验 力 分 析 相 关 研 究 中 敏感 性 分 析 的 结果 
(Pek & Park, 2019, 2022)。 拟 合 模型 3， 针 对 均值 
模型 中 预测 变量 的 固定 效应 ， 计算 检验 力 、 效 应 
量 估 计 值 的 95% 可 信 区 间 宽 度 、95% 可 信 区 间 对 
真 值 的 覆盖 率 。 最 后 得 到 同时 满足 检验 力 高 于 0.8， 
95% 可 信 区 间 宽 度 较 窗 , 95% 可 信 区 间 对 真 值 的 覆 


效应 量 的 值 为 产生 值 ， 其 余 参 数 设置 参考 研究 2, 
生成 R 个 样本 量 为 N 的 样本 , 共 可 得 到 RxS 个 样本 。 

(4) 建 构 模 型 。 对 RxS 个 数据 ,使 用 不 同 复杂 
程度 的 备 选 模 型 拟 合 数 据 ， 应 用 研究 1 选 出 的 较 
稳健 的 拟 合 指标 选 出 合适 的 模型 。 基 于 每 个 效应 
量 生成 的 数据 集 ( 共 R 个 数据 ) 计 算 检验 力 、 效 应 
量 估计 值 的 95% 可 信和 区间 宽度 和 95% 可 信 区 间 对 
真 值 覆盖 率 的 平均 值 。 

(5) 整 合 结果 。 整 合 5S 个 检验 力 和 效应 量 准确 
性 分 析 结 果 ， 得 到 样本 量 为 NV 时 的 检验 力 和 效应 
量 准确 性 指标 的 分 布 。 

参考 Pek 和 Park (2019) 的 敏感 性 分 析 结 


HRE 92.5% 到 97.5% 之 间 的 样本 量 作为 推荐 样 
本 量 。 

研究 2-2 考察 完整 MELSM 的 检验 力 与 效应 
量 准确 性 。 模 拟 条 件 在 研究 2-1 的 基础 上 ， 增 加 方 
差 模型 自 变 量 的 效应 量 (0.2，0.5，0.8)， 共 形成 
8x9x3x3 = 648 种 模拟 实验 条 件 水 平 的 组 合 ( 即 处 
理 )。 对 于 每 种 模拟 实验 条 件 水 平 的 组 合 ， 基 于 模 
型 6, 重复 生成 数据 10000 次 。 拟 合 模型 6， 针 对 
均值 模型 和 方差 模型 中 预测 变量 的 固定 效应 进行 
分 析 , 分 析 流 程 和 结果 评价 与 研究 2-1 相同 。 
43 ”研究 3: 基 于 不 确定 性 问题 的 混合 效应 均值 - 

方差 模型 样本 量规 划 研 究 

研究 3 主要 探索 不 确定 情境 下 的 样本 量规 划 ， 


iE S = 1000, R = 10000。 将 以 上 过 程 编 写成 有 
语言 程序 , 纳入 本 项 目 开 发 的 软件 包 。 

模拟 研究 沿用 研究 2 的 子 研究 分 类 , 分 为 2 
个 子 研 究 。 

研究 3-1 探究 不 确定 情况 下 符合 残 差 同 质 性 
的 MELSM 的 样本 量规 划 。 模 拟 条 件 包括 均值 模 
型 自 变量 的 效应 量 (0.2，0.5，0.8), 均值 模型 总 体 
效应 量 不 确定 性 程度 (效应 量 分 布 的 全 距 = 0.15, 
1.50, 3.00), 水平 1 样本 量 (10, 25, 50, 75, 100, 150, 
200, 300) 和 水 平 2 样本 量 (20, 30, 50, 75, 100, 150, 
200, 300, 800)， 共 形成 3x3x8x9 = 648 种 模拟 实验 
条 件 水 平 的 组 合 ( 即 处 理 )。 效 应 量 分 布 的 全 距 参 考 
了 Pek 和 了 Park (2019) 的 模拟 研究 设置 。 参 照 基 于 
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不 确定 性 问题 的 检验 力 和 效应 量 准确 性 分 析 基 本 
方法 ， 对 于 每 种 模拟 实验 条 件 水 平 的 组 合 ， 基 于 
模型 3 产生 数据 ,通过 比较 备 选 模型 1~3 建构 模 
型 。 最 后 ,根据 分 析 结 果 得 到 样本 量 为 N 时 的 检 
验 力 和 效应 量 准确 性 指标 的 分 布 , 研究 者 可 以 根 
据 不 同 的 标准 确定 推荐 的 样本 量 。 可 参考 的 标准 
如 ,检验 力 分 布 20th 百 分 位 数 大 于 0.8, 或 检验 力 
均值 大 于 0.8 等 。 然 后 找到 满足 要 求 时 对 应 的 样本 
量 ， 即 为 推荐 值 。 

研究 3-2 探究 不 确定 情况 下 完整 MELSM 的 
样本 量规 划 研 究 。 为 简化 研究 ， 本 研究 固定 均值 
模型 中 预测 变量 的 效应 量 为 中 等 效应 ， 总体 效 应 
量 不 确定 性 为 中 等 程度 。 模 拟 条 件 包括 方差 模型 
自 变 量 的 效应 量 (w= 0.2, 0.5, 0.8), 方差 模型 总 
体 效应 量 不 确定 性 程度 (效应 量 分 布 的 全 距 = 
0.15, 1.50, 3.00), 水 平 1 样本 量 (10, 25, 50, 75, 100, 
150, 200, 300) 和 水 平 2 样本 量 (20, 30, 50, 75, 100, 
150, 200, 300, 800)， 共 形成 3x3x8x9 = 648 种 模拟 
实验 条 件 水 平 的 组 合 ( 即 处 理 )。 参 照 基 于 不 确定 性 
问题 的 检验 力 和 效应 量 准 确 性 分 析 基 本 方法 ， 对 
于 每 种 模拟 实验 条 件 水 平 的 组 合 ， 基 于 模型 6 产 
生 数据 。 与 研究 1 中 建构 完整 MELSM 的 策略 相 
同 ， 先 通过 比较 备 选 模型 1~3 确定 均值 模型 ， 再 
通过 比较 备 选 模 型 3~6 确定 方差 模型 ， 实 现 模型 
建构 。 推 荐 样本 量 确定 方式 同 研 究 3-1。 

最 终 ， 本 研究 将 整合 前 三 个 研究 的 结果 ， 开 
发 简便 易 用 的 软件 包 , 便于 应 用 人 研究 者 实现 
MELSM 的 样本 量规 划 、 模 型 建构 和 数据 分 析 等 
功能 , 促进 新 方法 和 新 技术 在 心理 学 研究 中 的 推 
广 应 用 。 
44 研究 4: 混合 效应 均值 -方差 模型 的 应 用 研究 

研究 4 将 结合 两 个 心理 学 的 实际 研究 问题 ， 
演示 MELSM 的 样本 量规 划 、 模 型 建构 及 结果 解 
释 的 规范 流程 ， 验 证 前 三 个 研究 的 结论 在 实际 应 
用 中 的 可 操作 性 。 两 个 案例 的 研究 流程 如 下 : (1) 数 
据 收 集 前 , 按照 研究 3 确定 的 不 确定 性 情况 下 样 
本 量规 划 研 究 范 式 ， 基 于 前 人 相关 研究 结果 ,， 利 
用 本 项 目 所 开发 的 软件 包 , 输入 多 个 备 选 模型 、 效 
应 量 的 先 验 分 布 以 及 两 个 水 平 的 样本 量 组 合 ， 从 
而 根据 软件 包 输 出 的 各 条 件 下 效应 量 准确 性 及 检 
验 力 指 标 结果 , 确定 合理 的 水 平 1 和 水 平 2 样本 
量 。(2) 按 照 所 确定 的 样本 量 , 完善 研究 设计 ， 实 
施 研究 ， 收 集 数据 。(3) 基 于 数据 建构 合适 的 


MELSM, 并 估计 参数 ,解释 结果 并 作出 结论 。 

案例 1 是 基于 Stroop 研究 范式 的 心理 学 实验 
研究 ， 旨 在 探讨 一 致 和 非 一 致 条 件 对 正确 作答 反 
应 时 的 影响 ,以 及 一 致 和 非 一 致 条 件 对 被 试 正确 
作答 反应 时 稳定 性 的 影响 。 研 究 设计 : 实验 内 容 
为 数字 Stroop 任务 。 包 含 一 个 被 试 内 自 变 量 , E 
有 两 个 水 平 : 一 致 条 件 和 非 一 致 条 件 。 在 一 致 条 
件 中 , 字符 的 数量 与 显示 的 数字 是 匹配 的 (例如 ， 
333)。 在 非 一 致 性 条 件 中 , 字符 的 数量 与 显示 的 数 
字 是 不 匹配 的 (例如 , 44)。 实 验 任 务 是 要 求 被 试 计 
算 字 符 的 数量 ， 因 变量 为 正确 作答 试 次 的 反应 
时 。 收 集 的 数据 为 姐 套 结构 , 试 次 姐 套 于 被 试 。 
在 该 研究 中 ,考虑 的 备 选 模 型 与 模拟 研究 中 的 模 
型 1~ 模 型 6 类 似 , 均值 模型 和 方差 模型 的 自 变 量 
均 为 实验 处 理 水 平 (一 致 / 非 一 致 )。 

案例 2 是 探索 数学 学 习 自 我 效能 感 和 教师 认 
知 激发 教学 策略 使 用 程度 对 数学 成 绩 影 响 的 教育 
心理 学 调查 研究 ， 旨 在 探讨 学 生 数学 学 习 自 我 效 
能 感 和 数学 教师 认 知 激发 教学 策略 使 用 程度 对 数 
学 成 绩 的 影响 ,以 及 二 者 对 班级 内 成 绩 一 致 性 的 
影响 。 研 究 设计 : 首先 , 编制 有 关 学 生 数 学 自我 效 
能 感 和 数学 教师 认 知 激发 教学 策略 使 用 程度 的 问 
卷 , 并 通过 预 试 验证 问卷 的 信 效 度 。 其 次 ， 针 对 四 
川 省 某 区 县 采取 分 层 抽样 的 方法 ,首先 抽取 小 学 
学 校 ， 然 后 在 每 所 样本 学 校 中 随机 抽取 一 个 四 年 
级 班级 的 学 生 完 成 数学 学 习 自 我 效能 感 问 卷 ， 其 
数学 任课 教师 完成 认 知 激发 教学 策略 使 用 程度 问 
卷 , 并 统计 这 些 学生 在 该 地 区 统考 中 的 数学 成 
绩 。 收 集 的 数据 为 学 生 骨 套 于 班级 的 结构 。 学 生 
数学 学 习 自 我 效能 感 为 水 平 1 自 变 量 ， 数 学 教师 
认 知 激发 教学 策略 使 用 程度 为 水 平 2 自 变 量 。 在 
该 研究 中 ,考虑 的 备 选 模 型 包括 (为 简化 研究 暂 不 
考虑 自我 效能 感 和 认 知 激发 使 用 程度 的 交互 作 
用 ): 模型 1 一 一 均值 模型 自 变 量 为 自我 效能 感 、 
认 知 激发 使 用 程度 ， 且 不 包含 随机 效应 ,符合 方 
差 同 质 性 假设 ; 模型 2 一 一 模型 1 基础 上 增加 均值 
模型 的 随机 截 距 ; 模型 3 一 一 模型 2 基础 上 增加 均 
值 模型 中 自我 效能 感 的 随机 斜率 ; 模型 4 一 一 模 
型 3 基础 上 增加 方差 模型 的 随机 截 距 ; 模型 5 一 一 
模型 4 基础 上 增加 方差 模型 中 自我 效能 感 、 认 知 
激发 使 用 程度 的 固定 斜率 ; 模型 6 一 一 模型 5 基础 
上 增加 方差 模型 中 自我 效能 感 的 随机 和 斜率。 由 
只 有 自我 效能 感 是 水 平 1 自 变 量 , 因此 仅 该 变量 


H 


= 
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可 能 有 随机 斜率 。 用 于 不 确定 情境 下 的 样本 量规 划 ( 研 究 3)， 最 终 形 


5 理论 建构 与 创新 


适用 于 残 差 异 质 的 情境 ， 合理、 
套数 据 信 息 的 MELSM 近年 来 受到 国外 研究 者 的 


成 MELSM 的 样本 量规 划 和 模型 建构 范式 ， 并 整 
合 相 关 功 能 开发 简便 易 用 的 软件 包 。 最 后 ， 本 研 
FE 研究 验证 模拟 研究 结果 ， 演 示 
MELSM 的 应 用 流程 (研究 4)。 


TRA FE THK 


高 度 关注 。 已 有 研究 基于 MELSM 开展 检验 力 分 


析 等 理论 研究 (Walters et al., 2018; 
2019; Williams et al.，2021)， 还 有 一 些 研究 将 
MELSM 应 用 于 实证 研究 中 ,得 到 丰富 的 研究 结 
果 (Rast & Ferrer, 2018; Williams et al., 2020)。 然 而 ， 
目前 国内 外 基于 MELSM 的 理论 研究 和 实践 应 用 


Williams et al., 


FE i A SE i 


仍 处 于 起 步 阶段 ， 在 实际 应 用 中 存在 的 样本 量规 
划 和 模型 建构 等 问题 仍 未 得 到 充分 解决 ， 使 研究 
者 在 应 用 MELSM 时 往往 无 所 适 从 。 为 促进 MELSM 
在 心理 学 研究 中 的 广泛 应 用 ， 本 研究 将 首先 探究 
适用 于 完整 MELSM 模型 选择 的 贝 叶 斯 拟 合 指标 ， 
提出 MELSM 模型 建构 方法 (研究 1)。 然 后 探究 
MELSM 在 确定 性 情境 下 的 基于 检验 力 分 析 和 效 
应 量 准确 性 分 析 的 样本 量规 划 方 法 (研究 2)， 并 进 
一 步 将 研究 1 得 到 的 较为 稳健 贝 叶 斯 拟 合 指标 应 


性 
问题 (Pek & Park, 2019)。 基 于 蒙特 卡 洛 的 分 析 范 
式 通过 重复 抽样 能 够 处 型 
性 。 当 研究 者 能 够 基于 预 实验 、 前 人 研究 或 元 分 
析 等 结果 获得 较 有 把 握 的 效应 量 时 ， 可 不 考虑 总 


本 研究 拟 提 出 的 MELSM 样本 量规 划 和 模型 


建构 的 理论 范式 如 表 2 所 示 。 在 确定 研究 选 题 和 
完成 实验 设计 之 后 ， 规 范 的 实验 研究 通常 包括 样 
本 量规 划 、 数 据 收集 、 数 据 分 析 与 结果 解释 等 流 


程 。 一 方面 , 研究 者 应 当 在 数据 收集 前 进行 样本 
量规 划 ， 以 确保 样本 量 满足 检验 力 和 效应 量 准 确 


的 要 求 。 样 本 量规 划 存 在 三 个 方面 的 不 确定 性 


样本 变异 造成 的 不 确定 


体 效应 量 的 不 确定 诉 


ES 当 研 究 者 能 够 基于 理论 事 
先 确定 拟 合 模型 时 ,可 不 考虑 模型 选择 的 不 确定 


表 2 MELSM 的 样本 量规 划 和 模型 建构 的 理论 范式 
数据 收集 前 : 样本 量规 划 ( 研 究 2, 研究 3) 


性 。 因 此 , 根据 研究 是 否 存在 这 两 种 不 确定 性 问 
题 ， 研 究 者 可 采取 不 同 范式 开展 样本 量规 划 ， 确 


步骤 模型 确定 模型 不 确定 
效应 量 确定 效应 量 不 确定 效应 量 确定 效应 量 不 确定 
第 1 步 根据 先 验 信息 确定 1 个 效 定义 效应 量 参数 先 验 分 根据 先 验 信息 确定 1 个 效 定义 效应 量 参 数 先 验 分 
应 量 的 值 ; 布 , 并 从 中 抽取 S 个 效应 应 量 的 值 ; 布 , 并 从 中 抽取 S 个 效应 


基于 待 拟 合 模 型 生成 R 个 
样本 量 为 的 样本 ， 共 可 
得 到 R 个 样本 ; 


第 3 步 ” 基 于 待 拟 合 模型 拟 合 数 
据 ,计算 检验 力 和 效应 量 


量 的 值 ; 
基于 待 拟 合 模型 生成 R 个 
EREN N 的 样本 ， 共 可 
得 到 RxS 个 样本 ; 


基于 待 拟 合 模型 拟 合 数 
据 ,计算 检验 力 和 效应 量 


量 的 值 ; 


基于 备 选 模型 中 最 复杂 模 


惹 于 备 选 模型 中 最 复杂 模 


型 生成 尺 个 样本 量 为 V 的 
样本 ， 共 可 得 到 尺 个 样本 


L> 


基于 各 备 选 模型 拟 合 数 
据 ， 并 根据 贝 叶 斯 拟 合 指 


型 生成 及 个 样本 量 为 h 
样本 ， 共 可 得 到 RxS VRE 
本 ; 

基于 各 备 选 模型 拟 合 数 
据 ， 并 根据 贝 叶 斯 拟 合 指 


准确 性 ; 准确 性 ; 标 (研究 1) 选 择 最 佳 模型 标 (研究 1) 选 择 最 佳 模型 
的 结果 用 于 计算 检验 力 和 的 结果 用 于 计算 检验 力 和 
效应 量 准确 性 ; 效应 量 准确 性 ; 
第 4 步 ”整合 结果 , 得 到 样本 量 为 整合 结果 , 得 到 样本 量 为 整合 结果 , 得 到 样本 量 为 整合 结果 ,得 到 样本 量 为 
N 时 的 检验 力 和 效应 量 准 NW 时 的 检验 力 和 效应 量 准 N 时 的 检验 力 和 效应 量 准 N 时 的 检验 力 和 效应 量 准 
确 性 指标 的 值 。 确 性 指标 的 分 布 。 确 性 指标 的 值 。 确 性 指标 的 分 布 。 
is 数据 收集 后 : 模型 建构 (研究 1) 
Í 模型 确定 模型 不 确定 
第 1 步 直接 拟 合 模 型 。 根据 拟 合 指标 确定 最 佳 的 均值 模型 
第 2 步 根据 拟 合 指标 确定 最 佳 的 方差 模型 ; 
第 3 步 拟 合 模型 选择 得 到 的 最 佳 MELSM。 


| 


ChinaXiv 合 作 期 刊 


第 6 期 XI] 


表 等 : 混合 效应 均值 -方差 模型 的 建构 和 样本 量规 划 探索 967 


定 后 续 数据 收集 时 所 需 的 样本 量 。 另 一 方面 ， 数据 
收集 完成 后 ， 研 究 者 应 建构 合适 的 模型 。 如 果 基 
于 理论 能 够 确定 模型 ， 则 无 需 进 行 模型 选择 ， 可 
直接 拟 合 模型 并 分 析 结 果 。 如 果 存 在 模型 选择 的 
不 确定 性 ,应 当 基于 数据 驱动 的 方法 选择 模型 。 
具体 而 言 ， 研 究 者 应 根据 本 研究 建议 的 贝 叶 斯 拟 
合 指标 ， 首 先 确定 最 佳 的 均值 模型 ， 再 确定 最 但 
的 方差 模型 ， 从 而 得 到 最 佳 的 MELSM 用 于 数据 
分 析 。 

本 研究 的 创新 之 处 主要 体现 在 以 下 两 个 方面 。 

一 是 方法 范式 的 创新 。 本 研究 充分 考虑 了 适 
用 MELSM 的 参数 估计 方法 ， 首 次 探讨 贝 叶 斯 佑 
计 框 架 下 的 拟 合 指标 在 MELSM 模型 选择 中 的 表 
现 及 其 影响 因素 ,并 创新 地 提出 在 完整 MELSM 
框架 下 依次 对 均值 模型 、 方 差 模 型 进行 选择 的 模 
型 建构 思路 。 这 将 为 MELSM 模型 建构 提供 更 可 
靠 的 拟 合 指标 , 满足 MELSM 的 应 用 需要 。 此 外 ， 
本 研究 将 检验 力 分 析 和 效应 量 准确 性 分 析 同 时 纳 
入 样本 量规 划 ， 并 在 Pek 和 Park (2019, 2022) 的 研 
究 基础 上 ,改进 不 确定 情境 下 的 样本 量规 划 范 式 ， 
总 结 出 在 效应 量 确定 /不 确定 、 模 型 确定 /不 确定 4 
种 情境 下 的 样本 量规 划 范 式 ， 进一步 完善 
MELSM 的 样本 量规 划 方 法 ,丰富 样本 量规 划 的 
理论 研究 ,为 实际 应 用 中 的 样本 量规 划 提供 更 加 
科学 、 可 靠 的 方法 学 建议 ， 有 助 于 提高 实验 研究 
的 可 重复 性 。 

二 是 实践 应 用 的 创新 。 本 研究 结合 心理 学 研 
究 特 点 ,开发 使 用 便利 的 软件 包 以 满足 贝 叶 斯 术 
架 下 MELSM 的 样本 量规 划 和 模型 建构 的 应 用 需 
要 , 为 MELSM 的 推广 应 用 提供 软件 基础 。 这 对 
科学 开展 研究 设计 、 数 据 分 析 具 有 指导 意义 和 创 
新 价值 ， 是 心理 学 实践 领域 创新 性 的 探索 。 

综 上 ,本 研究 深入 探索 MELSM 的 模型 建构 
和 样本 量规 划 方 法 ,为 科学 开展 心理 学 研究 提供 
方法 支持 。 研 究 结 果 将 进一步 推动 MELSM 在 心 
理学 研究 中 的 应 用 ， 为 深入 挖掘 嵌 套 数据 的 信息 ， 
揭示 复杂 心理 现象 的 本 质 提 供 全 新 视角 。 
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Model construction and sample size planning for 
mixed-effects location-scale models 
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Abstract: With the development of data-collection technics and increasing complexity of study designs, 
interest in Mixed-Effects Location-Scale Models (MELSM) has increased drastically. When residual 
variances are heterogeneous, these models are able to add predictors in different levels, then help explore 
the relationship among traits and simultaneously investigate the inter- and intra-individual variability, as 
well as their explanatory variables. This project includes both simulated studies and empirical studies. In 
detail, the main contents of this project are: 1) Comparing and selecting candidate models based on 
Bayesian fit indices to construct MELSM; 2) Planning sample size according to both power analysis and 
accuracy in parameter estimation analysis for MELSM; 3) Extending the sample size planning method for 
MELSM to better frame the considerations of uncertainty; 4) Developing an R package for MELSM and 
illustrating the application of MELSM in empirical psychological studies. Based on the project, we hope 
these statistical models can be widely implemented. Moreover, the reproducibility and replicability of 
psychological studies will be enhanced finally. 
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